6 tháng 9, 2025Tiếng Việt

Khám phá sự kết hợp giữa WebXR và thị giác máy tính. Tìm hiểu cách nhận dạng đối tượng thời gian thực đang thay đổi thực tế tăng cường và ảo ngay trên trình duyệt.

Kết nối Thế giới: Phân tích Chuyên sâu về Nhận dạng Đối tượng WebXR với Thị giác Máy tính

Hãy tưởng tượng bạn hướng điện thoại thông minh của mình vào một cái cây ở nước ngoài và ngay lập tức thấy tên và chi tiết của nó bằng tiếng mẹ đẻ, lơ lửng trong không trung bên cạnh. Hình dung một kỹ thuật viên nhìn vào một bộ máy phức tạp và có các sơ đồ 3D tương tác về các bộ phận bên trong được phủ trực tiếp lên tầm nhìn của họ. Đây không phải là một cảnh trong một bộ phim tương lai; đó là thực tế đang nổi lên nhanh chóng được cung cấp bởi sự hội tụ của hai công nghệ đột phá: WebXR và Thị giác Máy tính.

Thế giới kỹ thuật số và vật lý không còn là những lĩnh vực riêng biệt. Thực tế tăng cường (AR) và Thực tế ảo (VR), được gọi chung là Thực tế mở rộng (XR), đang tạo ra một sự pha trộn liền mạch giữa chúng. Trong nhiều năm, những trải nghiệm nhập vai này bị khóa bên trong các ứng dụng gốc, yêu cầu tải xuống từ các cửa hàng ứng dụng và tạo ra rào cản cho người dùng. WebXR phá vỡ rào cản đó, mang AR và VR trực tiếp đến trình duyệt web. Nhưng một lớp phủ hình ảnh đơn giản là không đủ. Để tạo ra những trải nghiệm thực sự thông minh và tương tác, các ứng dụng của chúng ta cần phải hiểu thế giới mà chúng đang tăng cường. Đây là lúc thị giác máy tính, cụ thể là phát hiện đối tượng, xuất hiện, mang lại cho các ứng dụng web của chúng ta sức mạnh của thị giác.

Hướng dẫn toàn diện này sẽ đưa bạn vào một cuộc hành trình vào trung tâm của nhận dạng đối tượng WebXR. Chúng ta sẽ khám phá các công nghệ cốt lõi, phân tích quy trình kỹ thuật, giới thiệu các ứng dụng thực tế mang tính chuyển đổi trong các ngành công nghiệp toàn cầu, và nhìn về phía trước những thách thức và tương lai thú vị của lĩnh vực này. Dù bạn là nhà phát triển, lãnh đạo doanh nghiệp hay người đam mê công nghệ, hãy chuẩn bị khám phá cách web đang học cách nhìn.

Tìm hiểu các Công nghệ Cốt lõi

Trước khi chúng ta có thể hợp nhất hai thế giới này, điều cần thiết là phải hiểu các trụ cột nền tảng mà thực tế mới này được xây dựng trên đó. Hãy phân tích các thành phần chính: WebXR và Thị giác Máy tính.

WebXR là gì? Cuộc cách mạng Web Nhập vai

WebXR không phải là một sản phẩm duy nhất mà là một nhóm các tiêu chuẩn mở cho phép các trải nghiệm AR và VR nhập vai chạy trực tiếp trong một trình duyệt web. Đây là sự phát triển của các nỗ lực trước đó như WebVR, được hợp nhất để hỗ trợ một phổ rộng hơn của các thiết bị, từ AR đơn giản trên điện thoại thông minh đến các bộ kính VR cao cấp như Meta Quest hoặc HTC Vive.

API Thiết bị WebXR: Đây là cốt lõi của WebXR. Nó là một API JavaScript cung cấp cho các nhà phát triển quyền truy cập được tiêu chuẩn hóa vào các cảm biến và khả năng của phần cứng AR/VR. Điều này bao gồm việc theo dõi vị trí và hướng của thiết bị trong không gian 3D, hiểu môi trường và kết xuất nội dung trực tiếp lên màn hình của thiết bị với tốc độ khung hình phù hợp.
Tại sao nó quan trọng: Khả năng tiếp cận và Phạm vi: Tác động sâu sắc nhất của WebXR là khả năng tiếp cận của nó. Không cần phải thuyết phục người dùng truy cập một cửa hàng ứng dụng, chờ tải xuống và cài đặt một ứng dụng mới. Người dùng chỉ cần điều hướng đến một URL và ngay lập tức tương tác với một trải nghiệm nhập vai. Điều này làm giảm đáng kể rào cản gia nhập và có ý nghĩa to lớn đối với phạm vi tiếp cận toàn cầu, đặc biệt là ở các khu vực mà dữ liệu di động là một vấn đề cần cân nhắc. Về lý thuyết, một ứng dụng WebXR duy nhất có thể chạy trên bất kỳ trình duyệt tương thích nào trên mọi thiết bị, ở mọi nơi trên thế giới.

Phân tích Thị giác Máy tính và Phát hiện Đối tượng

Nếu WebXR cung cấp cửa sổ vào thế giới thực tế hỗn hợp, thì thị giác máy tính cung cấp trí thông minh để hiểu những gì được nhìn thấy qua cửa sổ đó.

Thị giác Máy tính: Đây là một lĩnh vực rộng lớn của trí tuệ nhân tạo (AI) đào tạo máy tính để diễn giải và hiểu thế giới hình ảnh. Sử dụng hình ảnh kỹ thuật số từ máy ảnh và video, máy móc có thể xác định và xử lý các đối tượng theo cách tương tự như thị giác của con người.
Phát hiện Đối tượng: Một nhiệm vụ cụ thể và rất thực tế trong thị giác máy tính, phát hiện đối tượng vượt xa việc phân loại hình ảnh đơn giản (ví dụ: "hình ảnh này chứa một chiếc ô tô"). Nó nhằm mục đích xác định đối tượng nào có trong hình ảnh và chúng ở đâu, thường bằng cách vẽ một hộp giới hạn xung quanh chúng. Một hình ảnh duy nhất có thể chứa nhiều đối tượng được phát hiện, mỗi đối tượng có một nhãn lớp (ví dụ: "người," "xe đạp," "đèn giao thông") và một điểm tin cậy.
Vai trò của Học máy: Phát hiện đối tượng hiện đại được cung cấp bởi học sâu, một tập hợp con của học máy. Các mô hình được đào tạo trên các bộ dữ liệu khổng lồ chứa hàng triệu hình ảnh được dán nhãn. Thông qua quá trình đào tạo này, một mạng nơ-ron học cách nhận ra các mẫu, đặc điểm, kết cấu và hình dạng xác định các đối tượng khác nhau. Các kiến trúc như YOLO (You Only Look Once) và SSD (Single Shot MultiBox Detector) được thiết kế để thực hiện các phát hiện này trong thời gian thực, điều này rất quan trọng đối với các ứng dụng video trực tiếp như WebXR.

Giao điểm: Cách WebXR tận dụng Phát hiện Đối tượng

Phép màu thực sự xảy ra khi chúng ta kết hợp nhận thức không gian của WebXR với sự hiểu biết theo ngữ cảnh của thị giác máy tính. Sức mạnh tổng hợp này biến một lớp phủ AR thụ động thành một giao diện thông minh, chủ động có thể phản ứng với thế giới thực. Hãy khám phá quy trình kỹ thuật giúp điều này trở nên khả thi.

Quy trình Kỹ thuật: Từ Luồng Camera đến Lớp phủ 3D

Hãy tưởng tượng bạn đang xây dựng một ứng dụng WebXR nhận dạng các loại trái cây thông thường trên bàn. Dưới đây là phân tích từng bước những gì xảy ra phía sau hậu trường, tất cả đều trong trình duyệt:

Khởi tạo phiên WebXR: Người dùng điều hướng đến trang web của bạn và cấp quyền truy cập camera của họ cho một trải nghiệm AR. Trình duyệt, sử dụng API Thiết bị WebXR, bắt đầu một phiên AR nhập vai.
Truy cập Luồng Camera Thời gian thực: WebXR cung cấp một luồng video liên tục, tốc độ khung hình cao về thế giới thực như được nhìn thấy bởi camera của thiết bị. Luồng này trở thành đầu vào cho mô hình thị giác máy tính của chúng ta.
Suy luận trên thiết bị với TensorFlow.js: Mỗi khung hình của video được chuyển đến một mô hình học máy chạy trực tiếp trong trình duyệt. Thư viện hàng đầu cho việc này là TensorFlow.js, một framework mã nguồn mở cho phép các nhà phát triển xác định, đào tạo và chạy các mô hình ML hoàn toàn bằng JavaScript. Chạy mô hình "trên thiết bị" (tức là trên thiết bị của người dùng) là rất quan trọng. Nó giảm thiểu độ trễ—vì không có chuyến đi khứ hồi đến máy chủ—và tăng cường quyền riêng tư, vì luồng camera của người dùng không cần rời khỏi thiết bị của họ.
Diễn giải Đầu ra của Mô hình: Mô hình TensorFlow.js xử lý khung hình và xuất ra các kết quả của nó. Đầu ra này thường là một đối tượng JSON chứa danh sách các đối tượng được phát hiện. Đối với mỗi đối tượng, nó cung cấp:
- Một nhãn class (ví dụ: 'apple', 'banana').
- Một confidenceScore (một giá trị từ 0 đến 1 cho biết mô hình chắc chắn đến mức nào).
- Một bbox (một hộp giới hạn được xác định bởi tọa độ [x, y, width, height] trong khung video 2D).
Neo nội dung vào Thế giới thực: Đây là bước quan trọng nhất dành riêng cho WebXR. Chúng ta không thể chỉ vẽ một nhãn 2D trên video. Để có trải nghiệm AR thực sự, nội dung ảo phải xuất hiện như thể nó tồn tại trong không gian 3D. Chúng ta sử dụng các khả năng của WebXR, như API Hit Test, chiếu một tia từ thiết bị vào thế giới thực để tìm các bề mặt vật lý. Bằng cách kết hợp vị trí hộp giới hạn 2D với kết quả kiểm tra va chạm, chúng ta có thể xác định một tọa độ 3D trên hoặc gần đối tượng trong thế giới thực.
Kết xuất các Tăng cường 3D: Sử dụng một thư viện đồ họa 3D như Three.js hoặc một framework như A-Frame, giờ đây chúng ta có thể đặt một đối tượng ảo (một nhãn văn bản 3D, một hoạt ảnh, một mô hình chi tiết) tại tọa độ 3D đã tính toán đó. Bởi vì WebXR liên tục theo dõi vị trí của thiết bị, nhãn ảo này sẽ vẫn "dính" vào quả cây trong thế giới thực khi người dùng di chuyển xung quanh, tạo ra một ảo ảnh ổn định và thuyết phục.

Lựa chọn và Tối ưu hóa Mô hình cho Trình duyệt

Chạy các mô hình học sâu phức tạp trong một môi trường hạn chế tài nguyên như trình duyệt web di động là một thách thức đáng kể. Các nhà phát triển phải điều hướng một sự đánh đổi quan trọng giữa hiệu suất, độ chính xác và kích thước mô hình.

Mô hình gọn nhẹ: Bạn không thể chỉ đơn giản lấy một mô hình khổng lồ, tiên tiến được thiết kế cho các máy chủ mạnh mẽ và chạy nó trên điện thoại. Cộng đồng đã phát triển các mô hình hiệu quả cao đặc biệt cho các thiết bị biên. MobileNet là một kiến trúc phổ biến, và các mô hình được đào tạo trước như COCO-SSD (được đào tạo trên bộ dữ liệu lớn Common Objects in Context) có sẵn trong kho lưu trữ mô hình của TensorFlow.js, giúp chúng dễ dàng triển khai.
Kỹ thuật Tối ưu hóa Mô hình: Để cải thiện hiệu suất hơn nữa, các nhà phát triển có thể sử dụng các kỹ thuật như lượng tử hóa (giảm độ chính xác của các con số trong mô hình, làm giảm kích thước và tăng tốc độ tính toán) và cắt tỉa (loại bỏ các phần dư thừa của mạng nơ-ron). Các bước này có thể giảm đáng kể thời gian tải và cải thiện tốc độ khung hình của trải nghiệm AR, ngăn chặn trải nghiệm người dùng bị giật hoặc lag.

Ứng dụng Thực tế trong các Ngành công nghiệp Toàn cầu

Nền tảng lý thuyết rất hấp dẫn, nhưng sức mạnh thực sự của nhận dạng đối tượng WebXR được tiết lộ trong các ứng dụng thực tế của nó. Công nghệ này không chỉ là một sự mới lạ; nó là một công cụ có thể giải quyết các vấn đề thực tế và tạo ra giá trị trên nhiều lĩnh vực trên toàn thế giới.

Thương mại điện tử và Bán lẻ

Bối cảnh bán lẻ đang trải qua một cuộc chuyển đổi số lớn. Nhận dạng đối tượng WebXR cung cấp một cách để bắc cầu giữa mua sắm trực tuyến và vật lý. Một thương hiệu nội thất toàn cầu có thể tạo ra một trải nghiệm WebXR nơi người dùng hướng điện thoại của họ vào một không gian trống, ứng dụng nhận dạng sàn và tường, và cho phép họ đặt và hình dung một chiếc ghế sofa mới trong phòng của họ theo đúng tỷ lệ. Đi xa hơn, người dùng có thể hướng camera vào một món đồ nội thất cũ hiện có. Ứng dụng có thể xác định nó là một "ghế đôi", sau đó hiển thị các mẫu ghế đôi có phong cách tương tự từ danh mục của công ty để người dùng xem trước tại vị trí đó. Điều này tạo ra một hành trình mua sắm mạnh mẽ, tương tác và cá nhân hóa có thể truy cập thông qua một liên kết web đơn giản.

Giáo dục và Đào tạo

Giáo dục trở nên hấp dẫn hơn nhiều khi nó có tính tương tác. Một sinh viên sinh học ở bất kỳ đâu trên thế giới có thể sử dụng một ứng dụng WebXR để khám phá một mô hình 3D của tim người. Bằng cách hướng thiết bị của họ vào các phần khác nhau của mô hình, ứng dụng sẽ nhận ra "động mạch chủ," "tâm thất," hoặc "tâm nhĩ" và hiển thị dòng máu hoạt hình cùng thông tin chi tiết. Tương tự, một thợ cơ khí thực tập cho một công ty ô tô toàn cầu có thể sử dụng máy tính bảng để nhìn vào một động cơ vật lý. Ứng dụng WebXR sẽ xác định các bộ phận chính trong thời gian thực—máy phát điện, bugi, bộ lọc dầu—và phủ lên các hướng dẫn sửa chữa từng bước hoặc dữ liệu chẩn đoán trực tiếp lên tầm nhìn của họ, chuẩn hóa việc đào tạo trên các quốc gia và ngôn ngữ khác nhau.

Du lịch và Văn hóa

WebXR có thể cách mạng hóa cách chúng ta trải nghiệm du lịch và văn hóa. Hãy tưởng tượng một du khách đến thăm Đấu trường La Mã ở Rome. Thay vì đọc sách hướng dẫn, họ có thể giơ điện thoại lên. Một ứng dụng WebXR sẽ nhận ra địa danh và phủ lên một bản tái tạo 3D của cấu trúc cổ đại thời hoàng kim, hoàn chỉnh với các đấu sĩ và đám đông reo hò. Trong một bảo tàng ở Ai Cập, một du khách có thể hướng thiết bị của họ vào một chữ tượng hình cụ thể trên một cỗ quan tài; ứng dụng sẽ nhận ra biểu tượng và cung cấp bản dịch tức thì và bối cảnh văn hóa. Điều này tạo ra một hình thức kể chuyện phong phú hơn, nhập vai hơn, vượt qua các rào cản ngôn ngữ.

Công nghiệp và Doanh nghiệp

Trong sản xuất và logistics, hiệu quả và độ chính xác là tối quan trọng. Một công nhân kho hàng được trang bị kính AR chạy ứng dụng WebXR có thể nhìn vào một kệ hàng. Hệ thống có thể quét và nhận dạng mã vạch hoặc nhãn gói hàng, làm nổi bật hộp cụ thể cần được lấy cho một đơn hàng. Trên một dây chuyền lắp ráp phức tạp, một thanh tra đảm bảo chất lượng có thể sử dụng một thiết bị để quét trực quan một sản phẩm hoàn chỉnh. Mô hình thị giác máy tính có thể xác định bất kỳ bộ phận nào bị thiếu hoặc các khiếm khuyết bằng cách so sánh chế độ xem trực tiếp với một bản thiết kế kỹ thuật số, hợp lý hóa một quy trình thường là thủ công và dễ bị lỗi do con người.

Hỗ trợ Tiếp cận

Có lẽ một trong những ứng dụng có tác động lớn nhất của công nghệ này là tạo ra các công cụ hỗ trợ tiếp cận. Một ứng dụng WebXR có thể hoạt động như một đôi mắt cho người khiếm thị. Bằng cách hướng điện thoại về phía trước, ứng dụng có thể phát hiện các vật thể trên đường đi của họ—một "cái ghế," một "cánh cửa," một "cầu thang"—và cung cấp phản hồi âm thanh thời gian thực, giúp họ điều hướng môi trường của mình an toàn và độc lập hơn. Bản chất dựa trên web có nghĩa là một công cụ quan trọng như vậy có thể được cập nhật và phân phối ngay lập tức cho người dùng trên toàn cầu.

Thách thức và Hướng đi Tương lai

Mặc dù tiềm năng là rất lớn, con đường đến việc áp dụng rộng rãi không phải không có trở ngại. Việc đẩy các giới hạn của công nghệ trình duyệt mang lại một loạt thách thức độc đáo mà các nhà phát triển và nền tảng đang tích cực làm việc để giải quyết.

Những Trở ngại Hiện tại cần Vượt qua

Hiệu suất và Thời lượng Pin: Việc chạy liên tục camera của thiết bị, GPU để kết xuất 3D và CPU cho một mô hình học máy là cực kỳ tốn tài nguyên. Điều này có thể dẫn đến việc thiết bị quá nóng và pin hết nhanh, làm giới hạn thời lượng của một phiên có thể.
Độ chính xác của Mô hình trong Thực tế: Các mô hình được đào tạo trong điều kiện phòng thí nghiệm hoàn hảo có thể gặp khó khăn trong thế giới thực. Ánh sáng kém, góc máy lạ, nhòe chuyển động và các đối tượng bị che khuất một phần đều có thể làm giảm độ chính xác của việc phát hiện.
Sự phân mảnh của Trình duyệt và Phần cứng: Mặc dù WebXR là một tiêu chuẩn, việc triển khai và hiệu suất của nó có thể khác nhau giữa các trình duyệt (Chrome, Safari, Firefox) và trên hệ sinh thái rộng lớn của các thiết bị Android và iOS. Đảm bảo một trải nghiệm nhất quán, chất lượng cao cho tất cả người dùng là một thách thức phát triển lớn.
Quyền riêng tư Dữ liệu: Các ứng dụng này yêu cầu quyền truy cập vào camera của người dùng, xử lý môi trường cá nhân của họ. Điều quan trọng là các nhà phát triển phải minh bạch về dữ liệu nào đang được xử lý. Bản chất xử lý trên thiết bị của TensorFlow.js là một lợi thế lớn ở đây, nhưng khi các trải nghiệm trở nên phức tạp hơn, các chính sách bảo mật rõ ràng và sự đồng ý của người dùng sẽ là điều không thể thương lượng, đặc biệt là theo các quy định toàn cầu như GDPR.
Từ Hiểu biết 2D đến 3D: Hầu hết các phương pháp phát hiện đối tượng hiện tại cung cấp một hộp giới hạn 2D. Điện toán không gian thực sự đòi hỏi phát hiện đối tượng 3D—không chỉ hiểu rằng một chiếc hộp là một "cái ghế", mà còn cả kích thước 3D chính xác, hướng và vị trí của nó trong không gian. Đây là một vấn đề phức tạp hơn đáng kể và đại diện cho biên giới lớn tiếp theo.

Con đường phía trước: Điều gì Tiếp theo cho Thị giác WebXR?

Tương lai tươi sáng, với một số xu hướng thú vị sẵn sàng giải quyết những thách thức ngày nay và mở khóa các khả năng mới.

XR hỗ trợ bởi Đám mây: Với sự ra mắt của mạng 5G, rào cản về độ trễ đang thu hẹp lại. Điều này mở ra cánh cửa cho một phương pháp lai, nơi việc phát hiện nhẹ, thời gian thực diễn ra trên thiết bị, nhưng một khung hình độ phân giải cao có thể được gửi đến đám mây để xử lý bởi một mô hình lớn hơn, mạnh hơn nhiều. Điều này có thể cho phép nhận dạng hàng triệu đối tượng khác nhau, vượt xa những gì có thể được lưu trữ trên một thiết bị cục bộ.
Hiểu biết Ngữ nghĩa: Sự tiến hóa tiếp theo đang chuyển từ việc dán nhãn đơn giản sang hiểu biết ngữ nghĩa. Hệ thống sẽ không chỉ nhận ra một "cái cốc" và một "cái bàn"; nó sẽ hiểu mối quan hệ giữa chúng—rằng cái cốc đang trên cái bàn và có thể được đổ đầy. Nhận thức theo ngữ cảnh này sẽ cho phép các tương tác AR phức tạp và hữu ích hơn nhiều.
Tích hợp với AI Tạo sinh: Hãy tưởng tượng bạn hướng camera vào bàn làm việc của mình, và hệ thống nhận ra bàn phím và màn hình của bạn. Sau đó, bạn có thể hỏi một AI tạo sinh, "Hãy cho tôi một thiết lập tiện dụng hơn," và xem các đối tượng ảo mới được tạo ra và sắp xếp trong không gian của bạn để chỉ cho bạn một bố cục lý tưởng. Sự kết hợp giữa nhận dạng và sáng tạo này sẽ mở khóa một mô hình mới của nội dung tương tác.
Công cụ và Tiêu chuẩn hóa được Cải thiện: Khi hệ sinh thái trưởng thành, việc phát triển sẽ trở nên dễ dàng hơn. Các framework mạnh mẽ và thân thiện với người dùng hơn, một loạt các mô hình được đào tạo trước được tối ưu hóa cho web và hỗ trợ trình duyệt mạnh mẽ hơn sẽ trao quyền cho một thế hệ người sáng tạo mới để xây dựng các trải nghiệm web nhập vai, thông minh.

Bắt đầu: Dự án Phát hiện Đối tượng WebXR Đầu tiên của bạn

Đối với các nhà phát triển đầy tham vọng, rào cản gia nhập thấp hơn bạn nghĩ. Với một vài thư viện JavaScript chính, bạn có thể bắt đầu thử nghiệm với các khối xây dựng của công nghệ này.

Công cụ và Thư viện Thiết yếu

Một Framework 3D: Three.js là tiêu chuẩn thực tế cho đồ họa 3D trên web, cung cấp sức mạnh và sự linh hoạt to lớn. Đối với những người thích một cách tiếp cận khai báo, giống như HTML hơn, A-Frame là một framework tuyệt vời được xây dựng trên Three.js giúp việc tạo ra các cảnh WebXR trở nên vô cùng đơn giản.
Một Thư viện Học máy: TensorFlow.js là lựa chọn hàng đầu cho học máy trong trình duyệt. Nó cung cấp quyền truy cập vào các mô hình được đào tạo trước và các công cụ để chạy chúng một cách hiệu quả.
Một Trình duyệt và Thiết bị Hiện đại: Bạn sẽ cần một điện thoại thông minh hoặc bộ kính hỗ trợ WebXR. Hầu hết các điện thoại Android hiện đại với Chrome và các thiết bị iOS với Safari đều tương thích.

Hướng dẫn Khái niệm Cấp cao

Mặc dù một hướng dẫn lập trình đầy đủ nằm ngoài phạm vi của bài viết này, đây là một phác thảo đơn giản hóa về logic mà bạn sẽ triển khai trong mã JavaScript của mình:

Thiết lập Cảnh: Khởi tạo cảnh A-Frame hoặc Three.js của bạn và yêu cầu một phiên WebXR 'immersive-ar'.
Tải Mô hình: Tải không đồng bộ một mô hình phát hiện đối tượng đã được đào tạo trước, chẳng hạn như `coco-ssd` từ kho lưu trữ mô hình của TensorFlow.js. Điều này có thể mất vài giây, vì vậy bạn nên hiển thị một chỉ báo tải cho người dùng.
Tạo một Vòng lặp Kết xuất: Đây là trái tim của ứng dụng của bạn. Trên mỗi khung hình (lý tưởng là 60 lần mỗi giây), bạn sẽ thực hiện logic phát hiện và kết xuất.
Phát hiện Đối tượng: Bên trong vòng lặp, lấy khung hình video hiện tại và chuyển nó vào hàm `detect()` của mô hình đã tải của bạn.
Xử lý các Phát hiện: Hàm này sẽ trả về một promise giải quyết với một mảng các đối tượng được phát hiện. Lặp qua mảng này.
Đặt các Tăng cường: Đối với mỗi đối tượng được phát hiện có điểm tin cậy đủ cao, bạn sẽ cần ánh xạ hộp giới hạn 2D của nó tới một vị trí 3D trong cảnh của bạn. Bạn có thể bắt đầu bằng cách chỉ cần đặt một nhãn ở trung tâm của hộp và sau đó tinh chỉnh nó bằng các kỹ thuật nâng cao hơn như Hit Test. Hãy chắc chắn cập nhật vị trí của các nhãn 3D của bạn trên mỗi khung hình để khớp với chuyển động của đối tượng được phát hiện.

Có rất nhiều hướng dẫn và dự án mẫu có sẵn trực tuyến từ các cộng đồng như nhóm WebXR và TensorFlow.js có thể giúp bạn nhanh chóng có được một nguyên mẫu hoạt động.

Kết luận: Web đang Thức giấc

Sự kết hợp giữa WebXR và thị giác máy tính không chỉ là một sự tò mò về công nghệ; nó đại diện cho một sự thay đổi cơ bản trong cách chúng ta tương tác với thông tin và thế giới xung quanh. Chúng ta đang chuyển từ một trang web của các trang phẳng và tài liệu sang một trang web của các trải nghiệm không gian, nhận biết ngữ cảnh. Bằng cách cung cấp cho các ứng dụng web khả năng nhìn và hiểu, chúng ta đang mở ra một tương lai nơi nội dung số không còn bị giới hạn trong màn hình của chúng ta mà được đan xen một cách thông minh vào kết cấu của thực tại vật lý của chúng ta.

Hành trình chỉ mới bắt đầu. Những thách thức về hiệu suất, độ chính xác và quyền riêng tư là có thật, nhưng cộng đồng toàn cầu của các nhà phát triển và nhà nghiên cứu đang giải quyết chúng với tốc độ đáng kinh ngạc. Các công cụ có thể tiếp cận, các tiêu chuẩn mở và các ứng dụng tiềm năng chỉ bị giới hạn bởi trí tưởng tượng của chúng ta. Sự tiến hóa tiếp theo của web đã ở đây—nó nhập vai, nó thông minh, và nó có sẵn ngay bây giờ, trong trình duyệt của bạn.